International initiatives such as METABRIC (Molecular Taxonomy of Breast Cancer International Consortium) have collected several multigenomic and clinical data sets to identify the undergoing molecular processes taking place throughout the evolution of various cancers. Numerous Machine Learning and statistical models have been designed and trained to analyze these types of data independently, however, the integration of such differently shaped and sourced information streams has not been extensively studied. To better integrate these data sets and generate meaningful representations that can ultimately be leveraged for cancer detection tasks could lead to giving well-suited treatments to patients. Hence, we propose a novel learning pipeline comprising three steps - the integration of cancer data modalities as graphs, followed by the application of Graph Neural Networks in an unsupervised setting to generate lower-dimensional embeddings from the combined data, and finally feeding the new representations on a cancer sub-type classification model for evaluation. The graph construction algorithms are described in-depth as METABRIC does not store relationships between the patient modalities, with a discussion of their influence over the quality of the generated embeddings. We also present the models used to generate the lower-latent space representations: Graph Neural Networks, Variational Graph Autoencoders and Deep Graph Infomax. In parallel, the pipeline is tested on a synthetic dataset to demonstrate that the characteristics of the underlying data, such as homophily levels, greatly influence the performance of the pipeline, which ranges between 51\% to 98\% accuracy on artificial data, and 13\% and 80\% on METABRIC. This project has the potential to improve cancer data understanding and encourages the transition of regular data sets to graph-shaped data.
translated by 谷歌翻译
在存在潜在变量的情况下,从观察数据中估算因果关系的效果有时会导致虚假关系,这可能被错误地认为是因果关系。这是许多领域的重要问题,例如金融和气候科学。我们提出了序性因果效应变异自动编码器(SCEVAE),这是一种在隐藏混杂下的时间序列因果关系分析的新方法。它基于CEVAE框架和复发性神经网络。通过基于Pearl的Do-Calculus使用直接因果标准来计算因果链接的混杂变量强度。我们通过将其应用于具有线性和非线性因果链接的合成数据集,以显示SCEVAE的功效。此外,我们将方法应用于真实的气溶胶气候观察数据。我们将我们的方法与在合成数据上有或没有替代混杂因素的时间序列变形方法进行比较。我们证明我们的方法通过将两种方法与地面真理进行比较来表现更好。对于真实数据,我们使用因果链接的专家知识,并显示正确的代理变量的使用如何帮助数据重建。
translated by 谷歌翻译
会员推理(MI)攻击突出了当前神经网络随机培训方法中的隐私弱点。然而,它为什么出现。它们仅是不完美概括的自然结果吗?在培训期间,我们应该解决哪些根本原因以减轻这些攻击?为了回答此类问题,我们提出了第一种解释MI攻击及其基于原则性因果推理的概括的方法。我们提供因果图,以定量地解释以$ 6 $攻击变体获得的观察到的MI攻击性能。我们驳斥了几种先前的非量化假设,这些假设过于简化或过度估计潜在原因的影响,从而未能捕获几个因素之间的复杂相互作用。我们的因果模型还通过共同的因果因素显示了概括和MI攻击之间的新联系。我们的因果模型具有很高的预测能力($ 0.90 $),即它们的分析预测与经常看不见的实验中的观察结果相匹配,这使得通过它们的分析成为务实的替代方案。
translated by 谷歌翻译
矩阵的特征分类是基于基质分解的概率模型中的中心过程,例如主成分分析和主题模型。基于有限样本估计的这种分解的不确定性对于使用此类模型时的不确定性是必不可少的。本文解决了计算固定尺寸协方差矩阵特征向量各个条目的置信界的挑战。此外,我们得出了一种方法来绑定逆协方差矩阵的条目,即所谓的精度矩阵。我们方法背后的假设是最小的,要求存在协方差矩阵,其经验估计量会收敛到真正的协方差。我们利用U统计理论来绑定经验协方差矩阵的$ L_2 $扰动。从此结果,我们使用Weyl定理和特征值 - 元素向量身份获得了特征向量的边界,并使用矩阵扰动界限在精度矩阵的条目上得出置信区间。作为这些结果的应用,我们演示了一项新的统计测试,该测试使我们能够测试精度矩阵的非零值。我们将该测试与众所周知的Fisher-Z检验进行了比较,并证明了所提出的统计测试的健全性和可扩展性,及其在医学和物理领域的现实世界数据中的应用。
translated by 谷歌翻译
标记为图形结构数据的分类任务具有许多重要的应用程序,从社交建议到财务建模。深度神经网络越来越多地用于图形上的节点分类,其中具有相似特征的节点必须给出相同的标签。图形卷积网络(GCN)是如此广泛研究的神经网络体系结构,在此任务上表现良好。但是,对GCN的强大链接攻击攻击最近表明,即使对训练有素的模型进行黑框访问,培训图中也存在哪些链接(或边缘)。在本文中,我们提出了一种名为LPGNET的新神经网络体系结构,用于对具有隐私敏感边缘的图形进行培训。 LPGNET使用新颖的设计为训练过程中的图形结构提供了新颖的设计,为边缘提供了差异隐私(DP)保证。我们从经验上表明,LPGNET模型通常位于提供隐私和效用之间的最佳位置:它们比使用不使用边缘信息的“琐碎”私人体系结构(例如,香草MLP)和针对现有的链接策略攻击更好的弹性可以提供更好的实用性。使用完整边缘结构的香草GCN。 LPGNET还与DPGCN相比,LPGNET始终提供更好的隐私性权衡,这是我们大多数评估的数据集中将差异隐私改造为常规GCN的最新机制。
translated by 谷歌翻译
前列腺癌是男性癌症死亡的最常见原因之一。对非侵入性和准确诊断方法的需求不断增长,促进目前在临床实践中的标准前列腺癌风险评估。尽管如此,从多游幂磁共振图像中开发前列腺癌诊断中的计算机辅助癌症诊断仍然是一个挑战。在这项工作中,我们提出了一种新的深度学习方法,可以通过构建两阶段多数量多流卷积神经网络(CNN)基于架构架构的相应磁共振图像中的前列腺病变自动分类。在不实现复杂的图像预处理步骤或第三方软件的情况下,我们的框架在接收器操作特性(ROC)曲线值为0.87的接收器下实现了该区域的分类性能。结果表现出大部分提交的方法,并分享了普罗妥克斯挑战组织者报告的最高价值。我们拟议的基于CNN的框架反映了辅助前列腺癌中的医学图像解释并减少不必要的活组织检查的可能性。
translated by 谷歌翻译
机器学习驱动的医学图像分割已成为医学图像分析的标准。然而,深度学习模型易于过度自信预测。这导致了重新关注医学成像和更广泛的机器学习社区中的校准预测。校准预测是标签概率的估计,其对应于置信度的标签的真正预期值。这种校准的预测在一系列医学成像应用中具有效用,包括在不确定性和主动学习系统下的手术规划。同时,它通常是对许多医疗应用的实际重视的准确体积测量。这项工作调查了模型校准和体积估计之间的关系。我们在数学上和经验上展示,如果每个图像校准预测器,我们可以通过期望每像素/图像的体素的概率得分来获得正确的体积。此外,我们表明校准分类器的凸组合保持体积估计,但不保留校准。因此,我们得出结论,具有校准的预测因子是足够但不是必需的来获得体积的无偏估计。我们验证了我们对18种不同(校准的)培训策略的主题验证了我们关于Brats 2018的胶质瘤体积估计的任务的集合,以及Isles 2018数据集的缺血性卒中病变估计。
translated by 谷歌翻译